Статистика как отображение
Статистика формально определяется как функция $h: \mathbb{R}^n \to \mathbb{R}$. Мы определяем вероятность того, что статистика попадает в множество $B$, с использованием прообраза:
$$h^{-1} B = \{(x_1, x_2, \dots, x_n) : h(x_1, x_2, \dots, x_n) \in B\}$$
Основа для независимых и одинаково распределённых (i.i.d.) переменных
Для выборки из независимых и одинаково распределённых (i.i.d.) случайных величин совместная вероятность конкретной точки выборки $(x_1, \dots, x_n)$ равна произведению их маргинальных вероятностей: $p(x_1)p(x_2)\dots p(x_n)$. Это произведение служит весом для каждой точки при вычислении общей вероятности того, что статистика примет конкретное значение.
Рассмотрим дискретную популяцию, где $p_X(1) = 1/2$, $p_X(2) = 1/4$, $p_X(3) = 1/4$. Мы выбираем выборку объёма $n=2$ ($X_1, X_2$) и определяем нашу статистику как геометрическое среднее: $Y_2 = (X_1 X_2)^{1/2}$.
Чтобы найти распределение $Y_2$, перечислим все 9 возможных пар $(X_1, X_2)$, вычислим их совместную вероятность и соответствующее значение $Y_2$:
| Пара $(x_1, x_2)$ | Вероятность $P(x_1)P(x_2)$ | $Y = \sqrt{x_1 x_2}$ |
|---|---|---|
| (1, 1) | 1/4 | 1.000 |
| (1, 2), (2, 1) | 1/8 + 1/8 = 1/4 | 1.414 |
| (1, 3), (3, 1) | 1/8 + 1/8 = 1/4 | 1.732 |
| (2, 2) | 1/16 | 2.000 |
| (2, 3), (3, 2) | 1/16 + 1/16 = 1/8 | 2.449 |
| (3, 3) | 1/16 | 3.000 |
Точные и асимптотические распределения
Прежде чем переходить к предельным теоремам, таким как центральная предельная теорема (CLT), необходимо освоить «точное распределение». Это подразумевает вычисление конкретной функции массы или плотности вероятности для статистики при малом конечном $n$. Когда аналитическая форма становится непригодной, мы используем численные моделирования, такие как **приближения Монте-Карло**.